標簽【python spider】

　　之前都是爬取網頁中的文本信息，沒有爬取過視頻和音頻文件，所以爬取了下b站和網易雲音樂，記錄下整個過程，留着學習。 1. 爬取b站視頻　　1.1 網頁分析　　最近python機器學習比較火 ...

用urllib2抓取圖片的時候，部分request報HTTP Error 400: Bad Request 參照：https://stackoverflow.com/question ...

在網上看到的教程，但是我嫌棄那個教程寫的亂（雖然最后顯示我也沒高明多少，哈哈），就隨手寫了一個主要是嫌棄盤搜那些惡心的廣告，這樣直接下載下來，眼睛清爽多了。用pyinstall 打包成EXE文 ...

下面的代碼可以實現用python讀取PDF，包括讀取本地和網絡上的PDF。 pdfminer下載地址：https://pypi.python.org/packages/source/p/pdfmin ...

1.用於爬取58上的租房信息，限成都，其他地方的，可以把網址改改； 2.這個爬蟲有一點問題，就是沒用多線程，因為我用了之后總是會報： 'module' object has no attribute ...

在知乎上看到的這個問題，講講我爬取過程中遇到的問題: 1.循環爬取其他頁面，在其他項目中用循環一般可以搞定，可是這個，第一頁和第二第三頁的表格是不同的，所以要重新寫規則，我懶，寫了第一頁后，就不 ...

　　上次爬取網易雲音樂，折騰js調試了好久，難受。。。。今天繼續練練手，研究下知乎登陸，讓痛苦更猛烈些。 1.簡單分析　　很容易就發現登陸的url=“https://www.zhihu.com/ ...

這個是幫朋友做的，難點就是他們有一個反爬蟲機制，用request一直不行，后面我就用selenium直接把網頁copy下來，然后再來解析本地的html文件，就木有問題啦。現在看來，寫得有點傻，多包 ...

...

　　用python寫爬蟲時，有兩個很好用第三方模塊requests庫和beautifulsoup庫，簡單學習了下模塊用法： 1，requests模塊　　Python標准庫中提供了：urllib、 ...